3.4 인프라와 평가의 혁신 (Infrastructure & Evaluation)

로봇 공학, 특히 체화된 인공지능(Embodied AI)의 발전사에서 지난 수십 년은 ’알고리즘의 시대’였다. 연구자들은 더 나은 제어 이론을 수립하고, 더 정교한 신경망 아키텍처를 설계하며, 희소한 보상 문제를 해결하기 위한 탐험 전략을 고안하는 데 몰두해 왔다. 그러나 최근 몇 년간 SOTA(State-of-the-Art) 기술의 지형도는 급격한 지각 변동을 겪고 있다. 거대 언어 모델(LLM)이 보여준 비약적인 성취가 증명하듯, 지능의 창발은 단순히 우수한 알고리즘만으로 달성되지 않는다. 그것은 인터넷 규모의 데이터, 이를 처리할 수 있는 대규모 컴퓨팅 인프라, 그리고 물리적 세계를 고해상도로 모사하거나 대체할 수 있는 시뮬레이션 환경이 뒷받침될 때 비로소 가능해진다.

따라서 본 절에서는 로봇을 위한 파운데이션 모델(Foundation Model) 시대를 지탱하는 보이지 않는 거인, 즉 데이터 인프라(Data Infrastructure), 물리 시뮬레이션 엔진(Physics Simulation Engine), 그리고 **평가 프로토콜(Evaluation Protocol)**의 혁신을 심도 있게 다룬다. 이들 기술은 로봇 학습의 패러다임을 ’개별 실험실 단위의 소규모 실험’에서 ’글로벌 규모의 대규모 학습’으로 전환시키는 핵심 동력이며, 진정한 의미의 범용 로봇(Generalist Robot)을 실현하기 위한 필수 조건이다.

1. 로봇 데이터의 거대화: 파편화에서 통합으로

컴퓨터 비전 분야의 ImageNet이나 자연어 처리 분야의 Common Crawl과 같은 대규모 데이터셋은 해당 분야의 “초석(Foundation)” 모델을 탄생시킨 결정적인 계기였다. 그러나 로봇 공학은 오랫동안 ’데이터의 사막’에 머물러 있었다. 로봇 데이터는 인터넷에서 스크래핑할 수 없으며, 물리적 세계와의 상호작용을 통해 실시간으로 수집되어야 하기 때문이다. 더욱이 각 연구실마다 사용하는 로봇 하드웨어, 센서 구성, 환경 설정이 제각각인 탓에, 데이터는 파편화되어 있었고 상호 호환이 불가능했다. 이러한 한계를 극복하기 위해 등장한 것이 바로 범국가적, 범기관적 데이터 통합 프로젝트들이다.

1.1 Open X-Embodiment: 로봇 학습의 ImageNet 모멘트

Open X-Embodiment (OXE) 데이터셋은 로봇 학습 커뮤니티가 직면한 데이터 부족 문제를 해결하기 위해 21개 기관이 협력하여 구축한 기념비적인 프로젝트다.1 기존의 로봇 학습은 특정 로봇(예: Franka Emika Panda)이 특정 환경(예: 실험실 테이블)에서 특정 작업(예: 컵 옮기기)을 수행하는 데이터에 과적합(Overfitting)되는 경향이 있었다. 이는 모델이 학습되지 않은 환경이나 새로운 물체를 마주했을 때 급격히 성능이 저하되는 원인이 되었다.

OXE 프로젝트는 이러한 ‘좁은 전문가(Narrow Specialist)’ 모델의 한계를 극복하기 위해, 22종의 서로 다른 로봇 형태(Embodiment)로부터 수집된 527개의 스킬과 160,266개의 작업 데이터를 하나의 거대한 데이터셋으로 통합했다.1 이 데이터셋의 가장 큰 의의는 단순히 데이터의 양을 늘린 것이 아니라, 상호 이질적인 로봇 데이터 간의 긍정적 전이(Positive Transfer) 가능성을 입증했다는 점에 있다.

OXE 데이터를 기반으로 학습된 RT-X 모델은 특정 로봇의 데이터만으로 학습했을 때보다, 형태가 다른 로봇의 데이터를 함께 학습(Co-training)했을 때 성능이 향상되는 결과를 보였다.3 예를 들어, 바퀴가 달린 이동형 로봇의 데이터가 고정형 매니퓰레이터의 파지(Grasping) 능력 향상에 기여하거나, 7축 로봇의 데이터가 6축 로봇의 경로 계획 효율성을 높이는 현상이 관찰되었다. 이는 로봇 하드웨어가 달라도 ‘물체를 쥔다’, ‘공간을 이동한다’, ’장애물을 회피한다’와 같은 물리적 상호작용의 근본적인 원리는 공유될 수 있음을 시사한다. 이는 로봇 지능이 하드웨어 종속성을 탈피하여 범용성을 획득할 수 있다는 강력한 증거이다.

1.2 DROID: 데이터의 다양성과 강건함의 추구

OXE가 기존에 존재하는 이질적인 데이터셋들을 사후적으로 통합한 연합체라면, **DROID (Distributed Robot Interaction Dataset)**는 처음부터 데이터의 ’다양성(Diversity)’과 ’품질(Quality)’을 목표로 설계된 프로젝트다.5 데이터 중심 AI(Data-Centric AI)의 관점에서 볼 때, 단순히 많은 데이터가 항상 좋은 성능을 보장하지는 않는다. 데이터의 분포가 편향되어 있거나(예: 모두 같은 조명 조건), 성공한 궤적(Expert Demonstration)만 포함되어 있다면, 모델은 실패 상황에서 복구(Recovery)하는 방법을 배우지 못한다.

DROID는 이러한 문제를 해결하기 위해 다음과 같은 전략을 취했다:

분산 수집 및 표준화: 50명의 데이터 수집가가 12개월 동안 북미, 아시아, 유럽의 564개 환경(가정, 사무실, 실험실, 야외 등)에서 동일한 하드웨어 설정(Franka Panda 로봇, ZED 2 스테레오 카메라)을 사용하여 데이터를 수집했다.5 이는 데이터의 시각적, 환경적 다양성을 극대화하면서도 하드웨어 차이에 의한 노이즈를 최소화했다.
실패와 복구의 포함: DROID는 약 76,000개의 데모 궤적과 350시간 분량의 상호작용 데이터를 포함하는데, 여기에는 완벽한 성공 궤적뿐만 아니라 실패한 시도와 이를 수정하는 과정이 포함되어 있다. 이는 모델이 예기치 않은 외란(Disturbance)에 강건하게 대응할 수 있도록 돕는다.
강력한 OOD 일반화: 연구 결과에 따르면, DROID 데이터와 OXE 데이터를 함께 사용하여 학습할 경우, 분포 밖(Out-of-Distribution, OOD) 환경에서의 성공률이 기존 방법 대비 약 20% 이상 향상됨이 확인되었다.7

특성	Open X-Embodiment (OXE)	DROID (Distributed Robot Interaction Dataset)
핵심 철학	데이터의 규모(Scale)와 통합(Aggregation)	데이터의 다양성(Diversity)과 표준화(Standardization)
로봇 종류	22종 이상의 다양한 로봇 형태 혼합	단일 표준 하드웨어 (Franka Panda) 중심
환경 다양성	주로 각 연구실의 통제된 환경	전 세계 564개 이상의 다양한 실제 환경 (In-the-wild)
주요 기여	이종 로봇 간의 긍정적 전이(Cross-embodiment Transfer) 입증	강건한(Robust) 정책 학습 및 OOD 일반화 성능 향상
대표 모델	RT-1-X, RT-2-X	DROID Policy (Diffusion based)

표 3.4.1: 로봇 학습을 위한 양대 데이터셋 프로젝트 비교

2. 데이터 엔지니어링의 진화: RLDS와 Robo-DM

페타바이트(PB) 규모에 달하는 로봇 데이터를 수집했다 하더라도, 이를 효율적으로 저장하고 학습 파이프라인에 공급하지 못하면 무용지물이다. 특히 로봇 데이터는 고해상도 비디오, 텍스트 지시어, 로봇의 관절 상태(Proprioception), 제어 신호(Action) 등이 복합적으로 얽혀 있는 멀티모달 데이터다. 따라서 이를 처리하기 위한 데이터 포맷과 관리 시스템은 로봇 학습 인프라의 핵심 요소로 부상했다.

2.1 RLDS: 로봇 데이터의 표준화

현재 로봇 학습 커뮤니티, 특히 구글 딥마인드(Google DeepMind)를 중심으로 사실상의 표준으로 자리 잡은 포맷은 **RLDS (Reinforcement Learning Datasets)**이다.9 RLDS는 에피소드(Episode) 기반의 순차적 의사결정 데이터를 저장하고 로드하기 위한 생태계로, 다음과 같은 특징을 갖는다:

무손실(Lossless) 및 재현성: 데이터의 순서와 내용을 손실 없이 저장하여, 연구의 재현성을 보장한다.
TensorFlow Datasets (TFDS) 기반: 구글의 TFDS 인프라를 활용하므로, 대규모 분산 처리 시스템(예: TPU Pod)과의 연동성이 뛰어나다.
구조화된 스텝(Step): 각 타임스텝은 관측(Observation), 행동(Action), 보상(Reward) 등으로 명확히 정의된 필드를 가지며, 이를 통해 다양한 알고리즘(RL, IL)에 유연하게 적용될 수 있다.

그러나 RLDS는 기본적으로 데이터를 직렬화된 레코드(Serialized Record) 형태로 저장한다. 이는 텍스트나 저차원 벡터 데이터에는 효율적이지만, 고해상도 비디오 데이터에는 치명적인 비효율성을 초래한다. 비디오를 개별 프레임의 이미지 행렬로 풀어서 저장하기 때문에 저장 공간을 낭비하고, 학습 시 디스크 I/O 병목을 유발하는 원인이 된다.11

2.2 Robo-DM: 차세대 고효율 데이터 포맷

이러한 RLDS의 한계를 극복하기 위해 UC 버클리 등의 연구진은 **Robo-DM (Robot Data Management)**이라는 새로운 포맷을 제안했다.11 Robo-DM은 “빅 데이터” 시대의 로봇 학습을 위해 설계되었으며, 저장 효율성과 로딩 속도 면에서 혁신적인 개선을 이루었다.

단일 컨테이너 및 EBML: Robo-DM은 EBML (Extensible Binary Meta Language) 기반의 단일 파일 형식을 채택하여, 비디오, 오디오, 센서 데이터, 메타데이터를 하나의 컨테이너에 통합 관리한다. 이는 데이터셋의 배포와 관리를 단순화한다.
비디오 코덱의 적극적 활용: RLDS와 달리, Robo-DM은 비디오 데이터를 이미지 행렬이 아닌 H.264, VP9 등 고효율 비디오 코덱으로 압축하여 저장한다. 이를 통해 RLDS 대비 최대 **70배의 저장 공간 절약(손실 압축 시)**과 3.5배의 절약(무손실 압축 시)을 달성했다.11 이는 클라우드 스토리지 비용과 네트워크 전송 시간을 획기적으로 낮춘다.
메모리 맵(Memory-mapped) 디코딩 캐시: VLA 모델 학습 시 가장 큰 병목은 비디오 디코딩이다. Robo-DM은 자주 접근하는 디코딩된 프레임을 메모리에 캐싱하고, 이를 메모리 맵(mmap) 기술로 관리하여 CPU의 디코딩 부하를 줄이고 I/O 속도를 높였다. 벤치마크 결과, Robo-DM은 LeRobot과 같은 기존 프레임워크 대비 순차 디코딩 속도가 최대 50배 빠름이 입증되었다.14

3. 하드웨어 인터페이스의 민주화 (Democratization)

데이터 인프라의 혁신은 소프트웨어 영역에만 머물지 않는다. 데이터를 생산하는 주체인 ’하드웨어’의 접근성을 낮추는 것 또한 데이터의 양과 다양성을 확보하는 데 필수적이다. 고가의 로봇 팔이나 복잡한 모션 캡처 장비 없이도 양질의 데이터를 수집할 수 있는 기술들이 등장하며, 데이터 수집의 주체가 소수의 전문가에서 일반 대중으로 확장되고 있다.

3.1 UMI: 휴대용 인터페이스의 혁명

스탠포드 대학 연구팀이 개발한 **UMI (Universal Manipulation Interface)**는 로봇 데이터 수집의 진입 장벽을 무너뜨린 대표적인 사례다.15 UMI는 GoPro 카메라와 3D 프린팅된 그리퍼, 그리고 손목에 부착된 어안 렌즈(Fish-eye Lens) 카메라로 구성된 휴대용 장치다. 이 장치의 혁신성은 다음과 같다.

하드웨어 불가지론적(Hardware-agnostic) 설계: UMI로 수집된 데이터는 특정 로봇의 기구학(Kinematics)에 종속되지 않는다. 대신 상대적 궤적(Relative Trajectory) 행동 표현을 사용하여, 사람의 손동작 데이터를 다양한 로봇(Franka, UR5e, Hello Robot 등)에 **제로샷(Zero-shot)**으로 전이할 수 있다.15 이는 데이터 수집을 위해 값비싼 로봇을 현장에 가져갈 필요가 없음을 의미한다.
추론 시간 지연 매칭(Inference-time Latency Matching): 사람이 UMI를 들고 시연할 때의 반응 속도와, 실제 로봇이 정책을 추론하고 실행할 때 발생하는 지연 시간(Latency) 사이에는 필연적인 격차가 존재한다. UMI는 데이터 수집 시점에 이를 알고리즘적으로 보정하여, 역동적인 물체 던지기(Dynamic Tossing)나 정밀한 컵 정리와 같은 작업에서도 높은 성공률을 달성한다.17
야생(In-the-wild) 데이터 수집: 전원이나 외부 센서 없이 독립적으로 작동하므로, 부엌, 카페, 사무실, 야외 공원 등 어디서나 데이터를 수집할 수 있다. 이는 로봇 데이터의 다양성을 폭발적으로 증가시키는 기폭제가 된다.

3.2 저비용 하드웨어 플랫폼: ALOHA와 AhaRobot

원격 조작(Teleoperation) 시스템의 비용 절감 또한 중요한 트렌드다. ALOHA (A Low-cost Open-source Hardware System for Bimanual Teleoperation) 프로젝트는 기존에 수십만 달러를 호가하던 양팔 로봇 시스템을 약 2~3만 달러 수준으로 낮추어 공개했다.18 여기서 더 나아가 Mobile ALOHA는 이동형 베이스를 결합하여 전신 제어(Whole-body Control) 데이터 수집을 가능하게 했다.19

최근에는 비용 절감이 더욱 가속화되어, AhaRobot과 같은 프로젝트는 전체 하드웨어 비용을 1,000달러(약 140만 원) 수준으로 낮추는 데 성공했다.21 이러한 초저가 오픈소스 하드웨어의 보급은 전 세계의 학생, 연구자, 취미 공학자들이 로봇 데이터 수집에 참여할 수 있게 하며, 이는 로봇 분야의 ’위키피디아’식 데이터 축적 모델을 가능하게 할 잠재력을 지닌다.

4. 시뮬레이션의 르네상스: 미분 가능성과 생성형 AI의 결합

현실 데이터가 아무리 많아져도 물리적 세계의 모든 상황을 커버할 수는 없다. 특히 로봇이 파손될 위험이 있는 상황이나 극도로 희귀한 케이스는 현실에서 데이터를 수집하는 것이 불가능에 가깝다. 따라서 시뮬레이터는 단순히 현실을 흉내 내는 도구를 넘어, 학습을 가속화하고 현실의 데이터를 증강(Augmentation)하는 핵심 인프라로 진화하고 있다. 최신 시뮬레이션 기술은 **미분 가능성(Differentiability)**과 **생성형 AI(Generative AI)**라는 두 가지 키워드로 요약된다.

4.1 미분 가능한 물리학: MuJoCo MJX

DeepMind가 공개한 MuJoCo MJX는 로봇 시뮬레이션의 패러다임을 바꾸고 있다.22 기존의 MuJoCo 엔진은 CPU 기반으로 작동하여 대규모 병렬 처리에 한계가 있었으나, MJX는 이를 구글의 JAX 프레임워크를 통해 GPU와 TPU 상에서 구동되도록 포팅했다.

초고속 병렬 시뮬레이션: MJX는 단일 가속기(Accelerator) 상에서 수천, 수만 개의 환경을 병렬로 실행하며, 초당 수백만 스텝(Steps)의 시뮬레이션 속도를 제공한다.24 이는 강화학습(RL) 에이전트가 수년 분량의 경험을 단 몇 분 만에 학습할 수 있게 한다.
미분 가능 시스템 식별(Differentiable System Identification): 가장 혁신적인 점은 시뮬레이터 자체가 미분 가능하다는 것이다. 즉, 시뮬레이션 결과에 대한 입력 변수의 기울기(Gradient)를 계산할 수 있다. 이를 활용하면 실제 로봇의 궤적과 시뮬레이션 궤적 간의 오차를 역전파(Backpropagation)하여, 마찰 계수, 질량, 관성 모멘트 등의 물리 파라미터를 자동으로 최적화할 수 있다.24 이는 악명 높은 Sim-to-Real 격차(Gap)를 줄이는 가장 수학적이고 효과적인 방법이다.
학습 파이프라인의 통합: 정책 네트워크(Policy Network)와 물리 엔진이 동일한 GPU 메모리에 상주하므로, CPU와 GPU 사이를 오가는 데이터 전송 병목(PCIe Latency)이 완전히 제거된다. 이는 전체 학습 속도를 수십 배 이상 가속화한다.

4.2 생성형 시뮬레이션: Genesis

Genesis는 생성형 AI와 물리 엔진을 결합하여 시뮬레이션 환경 구축의 자동화를 실현한 플랫폼이다.25 기존에는 시뮬레이션 환경을 만들기 위해 엔지니어가 직접 3D 모델(URDF, MJCF)을 설계하고 배치해야 했다. 그러나 Genesis는 VLM(Vision-Language Model) 기반의 에이전트를 내장하여, 자연어 프롬프트만으로 4D 물리 세계를 생성한다.

다중 물리 솔버의 통합: Genesis는 강체(Rigid body)뿐만 아니라 유체(Fluid), 연성체(Soft body, MPM), 입자(Granular) 등을 하나의 통합된 프레임워크 내에서 시뮬레이션한다. 예를 들어, 로봇이 컵에 물을 따르거나, 흙을 파거나, 반죽을 치대는 복잡한 상호작용을 “로봇이 반죽을 치대는 장면을 만들어줘“라는 명령어 하나로 구축할 수 있다.26
극한의 성능: GPU 가속을 통해 조작(Manipulation) 장면에서 실시간보다 43만 배 빠른(43 million FPS) 시뮬레이션 속도를 달성했다고 보고되었다.25
생성형 데이터 파이프라인: 텍스트-투-시뮬레이션(Text-to-Simulation) 기능을 통해 무한에 가까운 다양한 환경과 시나리오를 자동으로 생성하고, 이를 통해 합성 데이터(Synthetic Data)를 대량으로 확보할 수 있다. 이는 데이터 부족 문제를 근본적으로 해결할 수 있는 잠재력을 지닌다.

4.3 산업 표준 에코시스템: NVIDIA Isaac Lab

학계 중심의 도구들과 달리, **NVIDIA Isaac Lab (구 Orbit)**은 산업 표준에 가까운 견고함과 확장성을 제공한다.27 Omniverse 플랫폼을 기반으로 하여 레이 트레이싱(Ray-tracing) 기반의 포토리얼리스틱(Photo-realistic) 렌더링을 제공하며, 이는 시각 기반(Vision-based) 정책 학습에 유리하다. 또한 ROS 2와의 긴밀한 통합을 지원하여, 시뮬레이션에서 검증된 정책을 실제 로봇에 배포(Deployment)하는 과정을 매끄럽게 연결한다. Isaac Lab은 수천 개의 병렬 환경을 지원하며, 도메인 랜덤화(Domain Randomization)를 통해 Sim-to-Real 성능을 극대화하는 데 최적화되어 있다.

5. 평가의 혁신: 실험실을 넘어선 검증

로봇 모델이 “작동한다“는 것을 어떻게 과학적으로 증명할 것인가? 과거 로봇 연구의 평가는 특정 실험실의 통제된 환경에서 10~50회 정도의 시도 후 성공률을 보고하는 방식이 주를 이뤘다. 그러나 이러한 방식은 재현이 불가능하며, 환경이 조금만 바뀌어도 성능이 급락하는 과적합 문제를 숨기는 경우가 많았다. 로봇 지능의 일반화(Generalization) 능력을 측정하기 위해 평가 방법론 또한 진화하고 있다.

5.1 SIMPLER: 시뮬레이션을 통한 현실 검증

SIMPLER (Simulated Evaluation of Manipulation Policies for Generalist Robots) 벤치마크는 “시뮬레이션 평가가 실제 로봇의 성능을 얼마나 잘 대변할 수 있는가?“라는 질문에 답하기 위해 개발되었다.29 실제 로봇 평가는 비용이 많이 들고 위험하며 확장이 어렵다. 반면 시뮬레이션 평가는 Sim-to-Real 격차로 인해 신뢰도가 낮았다.

SIMPLER는 이 딜레마를 해결하기 위해 다음과 같은 접근을 취했다:

시각적 매칭(Visual Matching): 실제 환경의 영상을 그린 스크린 기법으로 시뮬레이션 내에 투영하거나, 텍스처를 정교하게 매칭하여 시뮬레이션의 시각적 분포를 실제와 일치시켰다.
시스템 식별(System Identification): 실제 로봇의 궤적 데이터를 기반으로 시뮬레이션의 물리 파라미터를 튜닝하여 제어 응답성을 일치시켰다.
MMRV (Mean Maximum Rank Violation): 단순히 성공률의 절대값을 비교하는 것이 아니라, 정책 간의 **순위(Ranking)**가 시뮬레이션과 현실에서 얼마나 일치하는지를 측정하는 새로운 지표인 MMRV를 도입했다.30 연구 결과, SIMPLER 환경에서의 평가는 실제 로봇 성능과 높은 상관계수(Pearson r > 0.9)를 보였으며, 이는 시뮬레이션이 실제 평가를 대체할 수 있는 강력한 프록시(Proxy)가 될 수 있음을 시사한다.

5.2 차세대 벤치마크 스위트

단순한 ’성공/실패’를 넘어 로봇의 다양한 능력을 평가하기 위한 벤치마크들도 고도화되고 있다.

ManiSkill2: SAPIEN 엔진을 기반으로 하여 2,000개 이상의 물체와 강체, 연성체, 유체를 아우르는 다양한 조작 작업을 포함한다.31 특히 데모 데이터의 행동 공간을 변환하는 기능을 제공하여 다양한 제어 알고리즘을 공정하게 비교할 수 있다.
Behavior-1k: “인간 중심“의 로봇 활동에 초점을 맞춘 벤치마크로, 청소, 정리, 요리 등 1,000개의 일상 가사 활동을 정의한다.33 **BDDL (Behavior Domain Definition Language)**을 사용하여 작업의 성공 조건을 논리적(Semantic)으로 정의하며, 로봇의 장기 계획(Long-horizon planning) 능력을 평가한다.
RoboCAS & RoboCasa: 생성형 AI를 활용하여 주방과 같은 복잡한 환경 내에서 물체 배치, 정리 등의 작업을 수행하는 능력을 평가한다.34 수천 개의 3D 자산을 생성 모델로 만들어내어 환경의 다양성을 극대화했으며, VLA 모델의 일반화 성능을 측정하는 표준으로 자리 잡고 있다.
PolaRiS & REALM: 이들은 Neural Reconstruction 기술을 활용하여 실제 환경을 시뮬레이션으로 옮겨오거나(PolaRiS), 15가지 이상의 외란(Perturbation) 요소를 주입하여 모델의 강건함을 테스트하는(REALM) 등 Sim-to-Real 평가의 신뢰도를 높이는 데 집중하고 있다.36

결론적으로, 3.4절에서 살펴본 인프라와 평가의 혁신은 로봇 공학이 “실험실의 과학“에서 “데이터 중심의 공학“으로 나아가는 교두보 역할을 수행하고 있다. OXE와 DROID로 대변되는 데이터의 통합, Robo-DM과 같은 효율적인 데이터 처리, UMI와 AhaRobot을 통한 데이터 수집의 민주화, MJX와 Genesis가 여는 초고속/생성형 시뮬레이션, 그리고 SIMPLER와 같은 신뢰할 수 있는 평가 체계는 서로 맞물려 로봇 지능의 발전을 가속화하고 있다. 이러한 인프라 위에서 탄생할 미래의 로봇은 더 이상 제한된 환경에 갇혀 있지 않고, 복잡하고 비정형적인 현실 세계로 진출할 준비를 마칠 것이다.

6. 참고 자료

Open X-Embodiment - Robotic Learning Datasets and RT-X Models, https://www.scribd.com/document/856379021/Open-X-Embodiment-Robotic-Learning-Datasets-and-RT-X-Models
Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://openreview.net/pdf/ac322bdfcba6cbea2e3542da30a1f5c049573ff9.pdf
Scaling up learning across many different robot types, https://deepmind.google/blog/scaling-up-learning-across-many-different-robot-types/
Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://arxiv.org/abs/2310.08864
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset - arXiv, https://arxiv.org/abs/2403.12945
DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset, https://droid-dataset.github.io/
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset, https://www.researchgate.net/publication/383906519_DROID_A_Large-Scale_In-The-Wild_Robot_Manipulation_Dataset
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset …, https://arxiv.org/html/2403.12945v1
RLDS: An Ecosystem to Generate, Share, and Use Datasets in …, https://research.google/blog/rlds-an-ecosystem-to-generate-share-and-use-datasets-in-reinforcement-learning/
(PDF) RLDS: an Ecosystem to Generate, Share and Use Datasets in …, https://www.researchgate.net/publication/355926053_RLDS_an_Ecosystem_to_Generate_Share_and_Use_Datasets_in_Reinforcement_Learning
Robo-DM: Data Management For Large Robot Datasets - arXiv, https://arxiv.org/html/2505.15558v1
Robo-DM: Efficient Robot Big Data Management - OpenReview, https://openreview.net/pdf/12e4dc78788943b7085021467371ce75acfab463.pdf
Robo-DM: Data Management For Large Robot Datasets, https://www.researchgate.net/publication/391954107_Robo-DM_Data_Management_For_Large_Robot_Datasets
[2505.15558] Robo-DM: Data Management For Large Robot Datasets, https://arxiv.org/abs/2505.15558
Universal Manipulation Interface: In-The-Wild Robot Teaching …, https://arxiv.org/html/2402.10329v3
Universal Manipulation Interface: In-The-Wild Robot Teaching …, https://roboticsproceedings.org/rss20/p045.pdf
Universal Manipulation Interface: In-The-Wild Robot Teaching …, https://umi-gripper.github.io/
The Aloha Project - Trossen Robotics, https://www.trossenrobotics.com/the-aloha-project
MOBILE ALOHA Google’s new OPEN SOURCE robot - Reddit, https://www.reddit.com/r/GoogleGeminiAI/comments/190vi97/mobile_aloha_googles_new_open_source_robot/
Google DeepMind Rolls Out Mobile ALOHA, An Open Source …, https://www.businessworld.in/article/google-deepmind-rolls-out-mobile-aloha-an-open-source-humanoid-504806
AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator …, https://arxiv.org/html/2503.10070v1
Feature comparison between Omniverse IsaacSim and GPU …, https://github.com/google-deepmind/mujoco/issues/1161
MuJoCo 3 · google-deepmind mujoco · Discussion #1101 - GitHub, https://github.com/google-deepmind/mujoco/discussions/1101
Achieving Precise and Reliable Locomotion with Differentiable …, https://arxiv.org/html/2508.04696v1
Genesis, https://genesis-embodied-ai.github.io/
Genesis-Embodied-AI/Genesis: A generative world for … - GitHub, https://github.com/Genesis-Embodied-AI/Genesis
NVIDIA Isaac Lab and AWS for next-gen robotics (AIM113) | Build AI …, https://www.antstack.com/talks/reinvent24/advancing-physical-ai-nvidia-isaac-lab-and-aws-for-next-gen-robotics-aim113/
What Is Isaac Sim? - NVIDIA Omniverse, https://docs.omniverse.nvidia.com/isaacsim/latest/manual_isaac_extensions.html
Scalable Robot Benchmarking via Real-to-Sim Translation - arXiv, https://arxiv.org/html/2510.23571v1
Evaluating Real-World Robot Manipulation Policies in Simulation, https://simpler-env.github.io/
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills, https://arxiv.org/abs/2302.04659
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills, https://ar5iv.labs.arxiv.org/html/2302.04659
BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with …, https://arxiv.org/html/2403.09227v1
[2407.06951] RoboCAS: A Benchmark for Robotic Manipulation in …, https://arxiv.org/abs/2407.06951
Large-Scale Simulation of Everyday Tasks for Generalist Robots, https://arxiv.org/abs/2406.02523
Scalable Real-to-Sim Evaluations for Generalist Robot Policies - arXiv, https://arxiv.org/html/2512.16881v1
A Real-to-Sim Validated Benchmark for Generalization in Robotic …, https://arxiv.org/html/2512.19562v1